【科技百咖】对他来说,这个世界上有比金钱更重要的东西
信仰是心中的绿洲,思想的骆驼队是永远走不到的。—— 纪伯伦
0
风起于青萍之末。
回头看,从2018年1月特朗普政府宣布“对进口大型洗衣机和光伏产品分别采取为期4年和3年的全球保障措施,并分别征收最高税率达30%和50%的关税”起,这场持续到现在的中美贸易纷争就已经悄悄拉开了序幕。
此后,
对从中国进口的高端制造商品大规模征收25%的关税...
限制中国企业对美投资并购...
禁止美国公司向中兴通讯销售零部件、商品、软件和技术
......
眼看着这场纷争从摩擦变成争端直到可以用战争来形容。
而有一个人,曾经在这场纷争到来之前,就做好了应战的准备。
1
▲柏睿数据董事长兼CTO 刘睿民
五年前,刘睿民离开了世界五百强企业高管的岗位创立了柏睿数据。
在此之前,他曾将几个国外的老牌数据库像Teradata、Greenplum等带进了中国市场,甚至帮它们拿下了早期的几个大单,bonus拿到手软,是外人眼中事业有成的海归精英。
但“做的越久就越不开心”,他坦言。
因为他发现,这些他曾引以为傲的客户在数据库的建设中投入了大笔的支出,却没有得到该有的同等回报,尤其这些客户里面有很多都是我国各行各业的支柱企业。
“国外的公司仗着我们没有自主的数据库,要价高服务差”,直到今天谈起这件事他还是愤愤不平,“你不自主你就肯定要被人要挟”。
这种不平越积越多,越积越深。
直到他渐渐生出了自己做一个数据库的念头,“什么叫自主可控技术?要自己做的才可控,不是自己做的就不可控,就这么简单”。
这可不是头脑发热,他依仗的是在数据库领域摸爬滚打二十来年的经验和深刻的理解,他曾师从在数据库开创性方面获得图灵奖的Jim Gray,曾加入Tandem做Nonstop SQL商业数据库的开发,也曾在数据库领域做过实施、研发和销售等不同类型的工作。
▲数据库语言国际标准制定,也就是刘睿民(右一)主笔制定《SQL9075 2018流数据库》、《AI-in-Database 库内人工智能》两项国际标准的全会
机遇有时候就是这么奇妙。
刘睿民刚冒出这个念头不久,还在为研发团队的筹建一筹莫展的时候,就听到了惠普实验室解散了很多队伍的消息。
当打听到他曾经工作过的HP Neoview数据仓库研发团队也赫然在列时,他心中窃喜,开始给曾共同奋斗过多年的小伙伴们一个一个打电话“联络感情”。
在发现很多伙伴都不想轻易放弃数据库研发的时候,他就觉得这事儿成了。
而后,这个包括他在内的12人核心研发团队就正式成立了。
2
记者:要做一个什么样的数据库?
刘睿民:基于MPP架构的海量内存数据库。
记者:为什么要做这个?
刘睿民:爆发式的海量数据让我意识到这以后一定会成为刚需。
是的,我们现在的时代是一个信息爆炸的时代,信息爆炸的同时也就意味着这是一个流量爆炸、数据量爆炸的时代。
如果说十年前企业需要处理的数据量是一杯水的话,今天就是一条奔腾的河,那要如何应对这种爆发式的增长做到快速的处理数据呢?
说到这,我们不得不先来讲一下核心知识点:
目前市场上的商用数据库主流系统架构有两个流派——对称多处理器架构(SMP)和海量并行处理架构(MPP)。
SMP架构的特点在于共享系统的CPU、内存和I/O资源。这种技术诞生于内存昂贵时期,在数据量小于10T的情况下,可以应对自如。
但这种架构也有着十分明显的局限性,即多个CPU都是通过内存总线来访问统一内存资源的,在数据量增加到一定量级时,内存访问冲突将会加剧,最终造成CPU性能的浪费,甚至会遇到明显的性能瓶颈。
MPP架构的特点在于是节点协同工作。每个节点都拥有独立的内存,是一种完全无共享的架构方式,因而有很强的扩展能力。
但MPP架构也有一个问题,就是在节点之间进行数据拷贝时可能会形成网络风暴。举个栗子,当对300张表做JOIN联合查询,其中有30张表都大于1TB并且需要拷贝1/10的数据时,就将会有500多个G的数据在网络上运转,导致网络卡顿。
因此,刘睿民的团队选择以技术路线,并结合InfiniBand结构以摆脱基于传统PCI架构的I/O性能瓶颈。
过去数据分析时需要在内存及磁盘间,做多次的电信号和逻辑、场理寻址的转换,消耗大量用户状态和系统状态切换时延。
而跨节点内存间直接地址转换+InfiniBand后,允许直接对应用程序内存做读取和写入,不管数据存在哪一台服务器,直接都是系统态,只需要在电信号层面完成传输就可以,极大的提升了数据的运转速度。
同时,这种架构也实现了服务器与存储系统之间网络占用的降低。
就这样,刘睿民带领他的12人研发团队,一行代码一行代码的,逐步打造出一个不同于以往,也不同于国外厂商的,完全自主可控的数据库。
3
眼见着这个数据库就要落地,柏睿数据也应运而生。
过硬的技术实力带来的是丰硕的回报。
仅仅在产品落地的第四个月,柏睿就拿下了第一个单子。
说到这儿,刘睿民笑了起来,“说起来也是巧,当时其实已经定了另一家的产品了,基本上就要下订单了,结果我们的产品进去一测试,快了将近六七倍的处理速度,直接定了我们的产品”。
刘睿民表示,这与他们分三步来实现数据处理的实时性有关。
首先是提升了Hadoop文件系统的效率,在HDFS上做了大量优化,能把读取文件的速度,从网络访问提升到相当于读取本地盘的速度。
其次做了内存数据网格,先用HASH把数据分层,在几秒钟之内形成数万个模板,每个模板对应数据处理的不同粒度,相当于尺寸不同的筛子,对数据做预处理。
最后,对清洗后的结构化和半结构化数据进行精确查询。举个栗子,我们的数据可以在很短时间内,实现数据库节点的横向扩展,实现100张表的联合查询和精确的查询记录。
我问他:“我们现在已经有很过硬的技术了,那下一步想做什么?”
刘睿民想了想告诉我,“首先还是花大力气做自主可控,尤其是中美贸易战的爆发更是让我感触很深,这是我们未来规划中非常重要的一块,本来这也是我们企业建立的初衷。除了在自主可控方面之外还会着重的关注信息安全,尤其是对数据库来说信息安全非常重要,中兴、华为等企业数据泄露事件的发生,给我敲了一个警钟。最后,也想把我们这种技术推到国外去,也让发达国家看一下我们做出的数据库。”
那一刻,我仿佛看到他的眼睛里有光。
4
我让刘睿民用一个词形容一下他们自己。
他想了想,告诉我,是“持之以恒”。
是的,从最初的开始,他们这个团队就在没有任何东西可以参考的情况下,一个字一个字敲出了一行行的代码。
1998年,李彦宏曾在书里描写雅虎的杨致远:他追求的东西并不是金钱上的满足。我觉得这也是刘睿民和柏睿数据的剪影。
只是为了当年的愤愤不平,他们毅然决然从零开始,赶赴一条前路未知的旅途。
而今回首,蓦然发现,曾为梦想付出的所有都已结成了果实。
这是对所有为梦想而奋斗的人最好的回报。
也是他们自己的骄傲。
—END—
风起于青萍之末。
《科技百咖》,是中国软件网年度重磅策划、独家出品的高端对话栏目。
我们立足7.3万会员单位——中国企业服务生态各个领域,
以国内企业级ICT领域的权威媒体、研究机构的立体视角,
注视大信息产业、科技行业的每一次细微变动,
洞悉行业每一次“风起”的“青萍之末”。
知名企业一把手亲身讲述,
最真实的一线鲜活案例,
几年至几十年的从业经验,
深刻揭示企业的痛点和赢点,
探讨行业成败得失,
前瞻未来潮流趋势。
观察、思考、总结、讨论、预测,
我们走在行业巨变的前方!!!
专访事宜,请联系:
中国软件网副总裁 汤宁
联系电话:138 1181 9315
快来留言区谈谈你的看法叭~
昨天获奖人员昵称名单:“史占军”“浩怀Wright”:“t”
截止到明天下午18:00,同样,评论精彩的粉丝有获得红包机会,并将结果在下期互动区公布~
作者联系方式
工作邮箱:lpw@soft6.com